Search CORE

22 research outputs found

Multilingual statistical text analysis, Zipf's law and Hungarian speech generation

Author: Németh Géza
Zainkó Csaba
Publication venue: 'Akademiai Kiado Zrt.'
Publication date: 01/01/2002
Field of study

The practical challenge of creating a Hungarian e-mail reader has initiated our work on statistical text analysis. The starting point was statistical analysis for automatic discrimination of the language of texts. Later it was extended to automatic re-generation of diacritic signs and more detailed language structure analysis. A parallel study of three different languages-Hungarian, German and English-using text corpora of a similar size gives a possibility for the exploration of both similarities and differences. Corpora of publicly available Internet sources were used. The corpus size was the same (approximately 20 Mbytes, 2.5-3.5 million word forms) for all languages. Besides traditional corpus coverage, word length and occurrence statistics, some new features about prosodic boundaries (sentence initial and final positions, preceding and following a comma) were also computed. Among others, it was found that the coverage of corpora by the most frequent words follows a parallel logarithmic rule for all languages in the 40-85% coverage range, known as Zipf's law in linguistics. The functions are much nearer for English and German than for Hungarian. Further conclusions are also drawn. The language detection and diacritic regeneration applications are discussed in detail with implications on Hungarian speech generation. Diverse further application domains, such as predictive text input, word hyphenation, language modelling in speech recognition, corpus-based speech synthesis, etc. are also foreseen

Repository of the Academy's Library

A magyar nyelv betűstatisztikája beszédfeldolgozási szempontok figyelembevételével

Author: Zainkó Csaba
Publication venue
Publication date: 01/01/2009
Field of study

A cikkben bemutatok egy új típusú betstatisztikát, amely a klasszikus 44 bets magyar ábécén alapuló eljárás továbbfejlesztése és egyesíti a bet- és a hangstatisztika elnyeit. A betstatisztika készítését olyan módon egészítem ki, hogy figyelembe veszem a beszédfeldolgozás igényeit is. A módszer megkülönböztet bet szinten olyan jelenségeket is, amelyek csak a hangstatisztika szintjén lehet kezelni. Az új módszert a Magyar Nemzeti Szövegtáron tesztelem, összehasonlítom a módszert a klasszikus betstatisztikával és a beszédfeldolgozásban használt hangstatisztikával

University of Szeged

Multimodális kommunikáció alkalmazása projektvezetésben

Author: Csaba Zainkó
Mátételki Péter
Németh Géza
Publication venue
Publication date: 23/04/2007
Field of study

Napjaink intenzív kommunikációra alapuló információs társadalmában egyre nagyobb hangsúlyt kap a testreszabható, intelligens, rugalmas és alkalmazkodó információtovábbítás, mely nem kötődik csak egyetlen médiumhoz. Ez a törekvés érvényes a projektvezetés témakörében is, mely a projektkezelő rendszerek multimodalitásában mutatkozik meg. A Promóció projekt keretein belül megvalósított projektkezelő rendszer képes a felhasználók felé irányuló kommunikáció többalakú, többmódú megvalósítására. Ennek lényege, hogy a felhasználó és a rendszer közötti információáramlásra nincs egyetlen dedikált csatorna (technológia). Közvetlenül az adatközvetítés előtt döntés születik a felhasználandó médiumról, mely lehet például email (elektronikus levél), SMS (rövid szöveges üzenet) vagy akár hangüzenet (telefonos hívás és Text-To-Speech motor ötvözésével). A felhasználók felé továbbítandó üzenetek absztrakt formában keletkeznek. A kézbesítés módja a projektkezelő rendszerbe épített logika alapján dől el. Ha például a felhasználó nem válaszol 10 percen belül egy emailre, akkor mobiltelefonon keresztül próbáljuk elérni. Nappal a gyors reszponzivitás érdekében hanghívással, éjszaka viszont SMS-t használva. A projektkezelő rendszer multimodális megoldást alkalmaz a kérdőívek kitöltésére is. A létrehozott kérdőívek felhasználóhoz rendelhetők, opcionálisan definiálható, hogy mely projekt mely feladatában válnak aktuálissá. A kérdések megválaszolására a felhasználói felületen kívül lehetőség van telefonnal is, ez különösen hasznos offline (például terepen dolgozó) felhasználók esetén. A kérdőívek XML formátumra alakítását követően a Text-To-Speech motor beolvassa a kérdéseket, és a telefonbillentyűk segítségével megadhatók a válaszok, melyeket a rendszer eltárol

SZTAKI Publication Repository

Érzelmes beszéd gépi előállítása érzelem specifikus beszédadatbázisok felhasználásával

Author: Fék Márk
Németh Géza
Zainkó Csaba
Publication venue
Publication date: 01/01/2007
Field of study

Tanulmányunkban megvizsgáljuk hogyan lehet érzelem specifikus beszédadatbázisok felhasználásával gépileg érzelmes beszédet előállítani. Kísérletünket magyar nyelvre végeztük, de a módszer nyelvfüggetlen. Felvettünk egy szemantikailag semleges tartalmú mondatot és 26 logatomot amelyek a mondat szintetizálásához szükséges diádokat és CVC triádokat tartalmazták. A hanganyagot egy profi színésznő mondta fel a hat alapérzelemnek megfelelően, illetve semleges érzelmi változatban. A logatomok felhasználásával 7 érzelemfüggő beszédelem adatbázist hoztunk létre. A 7 beszédelem adatbázist összepárosítva a természetes mondatokból kinyert 7 prozódiai kontúrral 49 szintetizált mondatot állítottunk elő. A logatomokban, illetve a természetes és a szintetizált mondatokban hallható érzelmeket 194 tesztalany értékelte ki. A tesztelők a logatomok 99%-ban, illetve az összes természetes mondatban szignifikánsan a véletlen találgatás szintje felett ismerték fel a színésznő által kifejezett érzelmeket. Az érzelmek azonosítási aránya egyes szintetizált mondatok esetén meghaladta a természetes mondatokét

University of Szeged

Magyar nyelvű WaveNet kísérletek

Author: Németh Géza
Tóth Bálint
Zainkó Csaba
Publication venue
Publication date: 01/01/2017
Field of study

A gépi beszédkeltés legújabb iránya a mély neurális hálózat alapú közvetlen hullámforma generálás. A Google DeepMind kutatói által kidolgozott, ún. nyújtott konvolúció (dilated convolution) alapú WaveNet architektúra képes a hullámforma sajátosságait megtanulni és az így épített modell alapján új hullámformákat generálni. Ezzel az architektúrával magyar adatbázisokon végeztünk kísérleteket. Megvizsgáltuk a hálózat tanulási és generálási képességeit, majd különböző nyelvi jellemzőket felhasználva módosítottuk a tanulási és beszédhullámforma generálási folyamatot. A mondatok generálásához egyrészt természetes bemondásokból kinyert paraméterlistát használtunk, illetve szabály alapú beszédszintetizátor prozódiájával is végeztünk kísérleteket. A generált hangmintákat meghallgatásos teszt segítségével értékeltük, amelyben a WaveNet által generált hangmintákat hasonlítottuk össze természetes és szintetizált beszéddel

University of Szeged

Magyar kiejtési szótár az Interneten

Author: Abari Kálmán
Kiss Géza
Olaszy Gábor
Zainkó Csaba
Publication venue
Publication date: 01/01/2006
Field of study

University of Szeged

Promptgenerátor : ügyfélszolgálati hangos üzenetek automatikus gépi előállítása egy adott bemondó hangjára

Author: Bartalis Mátyás
Fék Márk
Németh Géza
Olaszy Gábor
Zainkó Csaba
Publication venue
Publication date: 01/01/2007
Field of study

Az egyre szélesedő kommunikációs lehetőségekkel rohamosan nő a a telefonos ügyfélszolgálatok terhelése. A tájékoztatás automatizálásához egyre több hangos üzenetet kell elkészíteni, általában ugyanazzal a bemondóval. Ezt a felolvasó személy véges terhelhetősége korlátozza. A cikkben olyan gépi megoldás lehetőségéről számolunk be, amelyik leveszi a munka nagy részét a bemondó válláról, csak ellenőriznie kell a generált üzenet hangzását. A promptgenerátor olyan új beszédtechnológiai megoldás, amilyent még nem készítettek Magyarországon. Tervezése és fejlesztése mind számítógépes nyelvészeti, mind fonetikai és informatikai szempontból új megoldásokat eredményezett. A rendszer, optimális esetben olyan természetes hangminőséget szolgáltat, hogy a hallgató nem veszi észre, hogy gép beszél

University of Szeged

Adaptation of Tacotron2-based Text-To-Speech for Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging

Author: Csapó Tamás Gábor
Gosztolya Gábor
Honarmandi Shandiz Amin
Markó Alexandra
Németh Géza
Tóth László
Zainkó Csaba
Publication venue: 'International Speech Communication Association'
Publication date: 01/01/2021
Field of study

SZTE Publicatio Repozitórium - SZTE - Repository of Publications